智能论文笔记

Developing a Component Comment Extractor from Product Reviews on E-Commerce Sites

Shogo Anda , Masato Kikuchi , Tadachika Ozono

分类：自然语言处理

2022-07-13

消费者经常阅读产品评论以告知他们的购买决定，因为一些消费者想了解产品的特定组成部分。但是，由于产品评论上的典型句子包含各种详细信息，因此用户必须在许多评论中识别有关他们想知道的组件的句子。因此，我们旨在开发一个系统，以识别和收集句子中产品的组件和方面信息。我们基于BERT的分类器分配了标签，这些标签参考了评论中的句子和句子的各个方面，并提取有关特定组件和方面的评论的句子。我们根据产品评论的模式匹配来确定的单词确定了适当的标签，以创建培训数据。因为我们无法将单词用作标签，所以我们仔细创建了涵盖单词含义的标签。但是，培训数据在组件和方面对不平衡。我们使用WordNet介绍了一种数据增强方法来减少偏差。我们的评估表明，该系统可以使用图案匹配来确定道路自行车的标签，涵盖了88％以上的电子商务网站上的组件和方面指标。此外，我们的数据增强方法可以从0.66到0.76提高F1的F1量度。

translated by 谷歌翻译

在自然语言处理（NLP）中，通常从频率信息估计n-gram的似然比（LR）。然而，语料库只包含可能的n克的一小部分，并且它们中的大多数很少发生。因此，我们希望LR估算器用于低频和零频率N-GRAM。实现这一目标的一种方法是将n-gram分解成离散值，例如字母和单词，并占据LRS的乘积。但是，因为该方法处理大量离散值，所以估计的运行时间和内存用法是有问题的。此外，使用不必要的离散值会导致估计精度的恶化。因此，本文提出将上述方法与文档分类中使用的特征选择方法相结合，并表明我们的估计器为低频和零频率提供了有效和有效的估计结果。

translated by 谷歌翻译